智能论文笔记

An Extensive Data Processing Pipeline for MIMIC-IV

Mehak Gupta , Brennan Gallamoza , Nicolas Cutrona , Pranjal Dhakal , Raphael Poulain , Rahmatollah Beheshti

分类：机器学习

2022-04-29

越来越多的研究致力于将机器学习方法应用于电子健康记录（EHR）数据，以完成各种临床任务。这一不断增长的研究领域暴露了所有人EHR数据集可访问性的局限性，以及不同建模框架的可重复性。这些局限性的原因之一是缺乏标准化的预处理管道。模仿是一种以许多研究中使用的原始格式免费获得的EHR数据集。缺乏标准化的预处理步骤是对数据集更广泛采用的重大障碍。它还导致在下游任务中使用不同的队列，从而限制了在类似研究中比较结果的能力。对比研究还使用各种不同的性能指标，可以大大降低比较模型结果的能力。在这项工作中，我们提供了一条端到端完全可定制的管道，以提取，清洁和预处理数据；并预测和评估ICU和非ICU相关临床时间序列预测任务的模拟数据集（MIMIC-IV）的第四版。该工具可在https://github.com/healthylaife/mimic-imic-iv-data-pipeline上公开获得。

translated by 谷歌翻译

Surya Namaskar: real-time advanced yoga pose recognition and correction for smart healthcare

Abhishek Sharma , Pranjal Sharma , Darshan Pincha , Prateek Jain

分类：计算机视觉

2022-09-06

如今，瑜伽因现代生活方式的压力增加而受到全世界的关注，并且学习瑜伽有很多方法或资源。瑜伽一词意味着思想和身体之间的深厚联系。今天，有大量的医学和科学证据表明，我们大脑活动的基本面，我们的化学甚至可以通过练习不同的瑜伽系统来改变我们的化学。 Suryanamaskar，也被称为“向太阳致敬”，是一种瑜伽练习，结合了八种不同的形式和12个体式（4个Asana重复），专门介绍了印度太阳神Surya。 Suryanamaskar提供了许多健康益处，例如增强肌肉和帮助控制血糖水平。在这里，MediaPipe库用于分析Surya Namaskar的情况。高级软件可以实时检测到站立，因为人们在相机前表演了Surya Namaskar。班级分隔器将该表格识别为以下一项：pranamasana，hasta padasana，hasta uttanasana，ashwa -Sanchalan Asana，Ashtanga Namaskar，Dandasana或Bhujangasana和Svanasana。基于深度学习的技术（CNN）用于开发该模型，模型精度为98.68％，精度得分为0.75，以检测正确的瑜伽（Surya Namaskar）姿势。使用此方法，用户可以练习所需的姿势，并可以检查该人所做的姿势是否正确。它将有助于正确地做Surya Namaskar的所有不同姿势，并提高瑜伽从业者的效率。本文描述了将在模型中实现的整个框架。

translated by 谷歌翻译

Agnostic Learning of General ReLU Activation Using Gradient Descent

Pranjal Awasthi , Alex Tang , Aravindan Vijayaraghavan

分类：机器学习 | (统计)机器学习

2022-08-04

我们为梯度下降提供了收敛分析，以解决高斯分布中不可知的问题。与研究零偏差的设置的先前工作不同，我们考虑了当relu函数的偏见非零时更具挑战性的情况。我们的主要结果确定，从随机初始化开始，从多项式迭代梯度下降输出中，具有很高的概率，与最佳relu函数的误差相比，可以实现竞争错误保证。我们还提供有限的样本保证，这些技术将其推广到高斯以外的更广泛的边际分布。

translated by 谷歌翻译

Individual Preference Stability for Clustering

Saba Ahmadi , Pranjal Awasthi , Samir Khuller , Matthäus Kleindessner , Jamie Morgenstern , Pattara Sukprasert , Ali Vakilian

分类：机器学习

2022-07-07

在本文中，我们提出了一个自然的单个偏好（IP）稳定性的概念，该概念要求每个数据点平均更接近其自身集群中的点，而不是其他群集中的点。我们的概念可以从几个角度的动机，包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明，确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果，我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法，以在实际线路上找到满足精确IP稳定性的聚类，并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束，即，与其他任何集群相比，每个数据点都不应太远。在这种情况下，我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。

translated by 谷歌翻译

Trimmed Maximum Likelihood Estimation for Robust Learning in Generalized Linear Models

Weihao Kong , Rajat Sen , Pranjal Awasthi , Abhimanyu Das

分类：机器学习 | (统计)机器学习

2022-06-09

我们研究在对抗性腐败下学习通用线性模型的问题。我们分析了一种经典的启发式，称为迭代修剪的最大似然估计量，该估计量已知在实践中有效地抵抗标签腐败。在标签腐败下，我们证明了这个简单的估计器在各种广泛的线性模型上实现了最小风险，包括高斯回归，泊松回归和二项式回归。最后，我们将估计器扩展到标签和协变量腐败的更具挑战性的设置，并在该环境中证明其稳健性和最佳性。

translated by 谷歌翻译

Do More Negative Samples Necessarily Hurt in Contrastive Learning?

Pranjal Awasthi , Nishanth Dikkala , Pritish Kamath

分类：机器学习 | (统计)机器学习

2022-05-03

噪声对比度估计的最新研究表明，从经验上讲，从理论上讲，尽管在对比度损失中拥有更多的“负样本”，但最初在阈值中提高了下游分类的性能，但由于“碰撞覆盖“贸易”，它都会损害下游性能-离开。但是，对比度学习中固有的现象是如此吗？我们在一个简单的理论环境中显示，通过从基础潜在类采样（由Saunshi等人引入（ICML 2019）），产生正对，表明表示（人口）对比度损失的下游性能实际上确实确实确实如此。不会随着负样本的数量降低。一路上，我们在框架中给出了最佳表示形式的结构表征，以进行噪声对比估计。我们还为CIFAR-10和CIFAR-100数据集的理论结果提供了经验支持。

translated by 谷歌翻译

Lerna: Transformer Architectures for Configuring Error Correction Tools for Short- and Long-Read Genome Sequencing

Atul Sharma , Pranjal Jain , Ashraf Mahgoub , Zihan Zhou , Kanak Mahadik , Somali Chaterji

分类：机器学习

2021-12-19

测序技术容易出错，对下游应用程序进行纠错（EC）。需要手动配置EC工具以获得最佳性能。我们发现最佳参数（例如，k-mer大小）是依赖于工具和数据集。此外，评估给定工具的性能（即，对准速率或增益）通常依赖于参考基因组，但是质量参考基因组并不总是可用的。我们介绍了基于K-MEC的自动配置的Lerna。 Lerna首先创建未校正的基因组读取的语言模型（LM）;然后，计算困惑度量以评估不同参数选择的校正读取。接下来，在不使用参考基因组的情况下发现产生最高对准率的那个。我们的方法的基本直觉是困惑度量与纠错后的组件的质量与组件的质量相反。结果：首先，我们表明，即使对于相同的EC工具，不同的数据集也可以对不同的数据集格变化。其次，我们使用其组件基于关注的变压器显示了我们的LM的收益。我们展示了误差校正前后困惑度量的模型的估计。校正后的困惑越低，k-mer大小越好。我们还表明，用于校正读取的对准率和组装质量与困惑强烈地呈负相关，从而实现了k-mer值的自动选择以获得更好的纠错，因此改善的组装质量。此外，我们表明我们的注意力模型对于整个管道的重大运行时间改善 - 由于并行化注意机制和JIT编译对GPU推理的使用JIT编译，因此整个管道的运行时间更快。

translated by 谷歌翻译

On the Existence of the Adversarial Bayes Classifier (Extended Version)

Pranjal Awasthi , Natalie S. Frank , Mehryar Mohri

分类：机器学习 | (统计)机器学习

2021-12-03

对抗性鲁棒性是各种现代机器学习应用中的关键财产。虽然它是最近几个理论研究的主题，但与对抗性稳健性有关的许多重要问题仍然是开放的。在这项工作中，我们研究了有关对抗对抗鲁棒性的贝叶斯最优性的根本问题。我们提供了一般的充分条件，可以保证贝叶斯最佳分类器的存在，以满足对抗性鲁棒性。我们的结果可以提供一种有用的工具，用于随后研究对抗性鲁棒性及其一致性的替代损失。这份稿件是“关于普通贝叶斯分类器的存在”在神经潮端中发表的延伸版本。原始纸张的结果不适用于一些非严格凸的规范。在这里，我们将结果扩展到所有可能的规范。

translated by 谷歌翻译

Offense Detection in Dravidian Languages using Code-Mixing Index based Focal Loss

Debapriya Tula , Shreyas MS , Viswanatha Reddy , Pranjal Sahu , Sumanth Doddapaneni , Prathyush Potluri , Rohan Sukumaran , Parth Patwa

分类：自然语言处理 | 人工智能 | 机器学习

2021-11-12

在过去的十年中，我们看到了社交媒体平台推动的在线内容中的指数增长。该规模的数据生成具有难以克服的攻击内容的警告。通过多种方式（图像，语言等），代码混合语言等，通过使用识别冒犯内容的复杂性加剧了。此外，即使我们仔细采样和注释令人反感的内容，也将始终存在攻击性VS非冒犯内容的显着类别不平衡。在本文中，我们介绍了一种基于新的Code-Mixing指数（CMI）的焦点损失，其避免了两个挑战（1）代码混合语言（2）类别不平衡问题，用于Dravidian语言冒犯检测。我们还通过基于余弦的分类器更换传统的小点产品类分类器，这导致性能提升。此外，我们使用多语言模型，帮助传输特征在跨语言中学到的，以有效地使用低资源语言。同样重要的是要注意我们的模型处理混合脚本的实例（例如，说拉丁和Dravidian - 泰米尔脚本脚本的使用）也是如此。我们的模型可以在低资源，类别不平衡，多语言和代码混合设置中处理令人反感的语言检测。

translated by 谷歌翻译

Bubblewrap: Online tiling and real-time flow prediction on neural manifolds

Anne Draelos , Pranjal Gupta , Na Young Jun , Chaichontat Sriworarat , John Pearson

分类：机器学习 | (统计)机器学习

2021-08-31

虽然在实验性神经科学的功能中的最经典研究专注于个体神经元的编码性质，但录音技术的最新发展导致了对神经群体的动态产生了越来越重视。这使得各种模型用于分析与实验变量相关的人口活动，但是对许多神经人群假设的直接测试需要基于当前神经状态的系统中干预，所以能够在线推断神经状态的模型。现有方法主要基于动态系统，需要强大的参数假设，这些假设很容易侵犯在噪声主导的方案中，并且在现代实验中的数千个数据信道中不符号。为了解决这个问题，我们提出了一种方法，该方法结合快速，稳定的维度降低，通过产生的神经歧管的软平衡，允许动态近似作为瓦片之间的概率流动。这种方法可以有效地使用在线期望最大化，缩放到数万条块，并且当动态噪声主导或具有多模模式过渡概率时，现有方法优于现有方法。由此产生的模型可以接受千赫兹数据速率培训，在分钟内产生准确的神经动力学近似，并在亚倍二十四个时间尺度产生预测。它在许多时间步骤中保留了预测性能，进入了未来，并且足以作为闭环因果实验的组成部分。

translated by 谷歌翻译